检索结果

Select

1. 面向用户偏好发现的隐变量模型构建与推理

高艳, 岳昆, 武浩, 付晓东, 刘惟一

计算机应用 2017, 37 (2): 360-366. DOI: 10.11772/j.issn.1001-9081.2017.02.0360

摘要（787）

PDF （1019KB）（595）

电子商务应用中产生了大量用户评分数据，而这些数据中富含了用户观点和偏好信息，为了能够从这些数据中准确地推断出用户偏好，提出一种面向评分数据中用户偏好发现的隐变量模型（即含隐变量的贝叶斯网）构建和推理的方法。首先，针对评分数据的稀疏性，使用带偏置的矩阵分解（BMF）模型对其进行填补；其次，用隐变量表示用户偏好，给出了基于互信息（MI）、最大半团和期望最大化（EM）算法的隐变量模型构建方法；最后，给出了基于Gibbs采样的隐变量模型概率推理和用户偏好发现方法。实验结果表明，与协同过滤的方法相比，该方法能有效地描述评分数据中相关属性之间的依赖关系及其不确定性，从而能够更准确地推断出用户偏好。

参考文献 | 相关文章 | 多维度评价

Select

2. 大规模社交网络中高效的关键用户选取方法

郑永广, 岳昆, 尹子都, 张学杰

计算机应用 2017, 37 (11): 3101-3106. DOI: 10.11772/j.issn.1001-9081.2017.11.3101

摘要（642）

PDF （965KB）（527）

针对大规模社交网络及其用户发布消息的历史数据，如何快速有效地选取具有较强信息传播能力的关键用户，提出了一种关键用户选取方法。首先，利用社交网络的结构信息，构建以用户为节点的有向图，利用用户发布消息的历史数据，基于Spark计算框架，定量计算由用户活跃度、转发交互度和信息量占比刻画的权重，从而构建社交网络的有向带权图模型；然后，借鉴PageRank算法，建立用户信息传播能力的度量机制，给出基于Spark的大规模社交网络中用户信息传播能力的计算方法；进而，给出基于Spark的d-距选取算法，通过多次迭代，使得所选取的不同关键用户的信息传播范围尽量少地重叠。建立在新浪微博数据上的实验结果表明，所提方法具有高效性、可行性和可扩展性，对于控制不良突发信息传播、社交网络舆情监控具有一定的支撑作用。

参考文献 | 相关文章 | 多维度评价

Select

3. 基于信息熵的不确定性数据清理方法

覃远翔段亮岳昆

计算机应用 2013, 33 (09): 2490-2492. DOI: 10.11772/j.issn.1001-9081.2013.09.2490

摘要（601）

PDF （610KB）（466）

针对不确定性数据中往往包含一些异常数据而导致相应的查询结果出现错误的问题,提出了一种基于信息熵的不确定性数据清理方法以减少异常数据并提高不确定性数据的质量。首先使用信息熵来度量数据的不确定度,然后结合统计学方法计算出不确定性数据的可信区间,最后去除那些不在可信区间内的数据。实验结果验证了该方法的高效性和有效性。